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基于 商品 描述 文案 的 点 击 预测 模型 
黄 卑 炫 ， 盛 ”起 : 


(安徽 理工 大 学 经 济 与 管理 学 院 ， 安 徽 淮南 232000) 


摘 要 : 为 了 预测 商品 描述 文案 中 商品 特征 对 点 击 的 影响 ， 量 化 分 析 用 户 的 消费 行为 特征 及 缓解 冷 启动 问题 ， 建 立 
了 一 种 基于 LDA 模型 和 文本 情感 分 析 的 点 击 预测 模型 。 该 模型 基于 LDA 主题 模型 对 商品 描述 词 的 分 类 利 选 ， 对 构 
成 词 进行 情感 分 析 , 构建 特征 向 量 以 表示 用 户 对 商品 各 特征 的 情感 倾向 ,并 通过 LightGBM 算法 进行 对 点 击 的 预测 。 
模型 可 以 将 非 结构 化 文本 数据 转换 为 结构 化 数据 ， 量 化 用 户 对 商品 不 同 特征 的 兴趣 倾向 ， 并 利用 不 同 商品 的 相似 特 
征 缓解 冷 启动 问题 。 实 验 结果 表明 模型 有 效 提 高 了 点 击 预测 效果 并 能 缓解 冷 启动 问题 。 
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Click prediction model based on product description 


Huang Haoxuan, Sheng Wui 
(Dept. of Economics & Management, Anhui University Of Science & Technology, Huainan Anhui 232000, China) 


Abstract: In order to predict the impact of commodity characteristics on click in commodity description copy, quantitatively 
analyze users' consumption behavior characteristics and alleviate the cold start problem, this paper established a click 
prediction model based on LDA model and text emotion analysis. Based on the LDA topic model, the model classifies and 
screens the commodity description words, analyzes the emotion of the constituent words, constructs the feature vector to 
represent the user's emotional tendency to the characteristics of the commodity, and predicts the click through the lightgbm 
algorithm. The model can transform unstructured text data into structured data, quantify users' interest in different 
characteristics of goods, and use the similar characteristics of different goods to alleviate the cold start problem. The 
experimental results show that the model can effectively improve the click prediction effect and alleviate the cold start problem. 
Key words: lightgbm; click prediction; text sentiment analysis; LDA topic model; cold start; 
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0 引言 通过 逻辑 回 归 、 贝 叶 斯 网 络 等 算法 从 而 进行 对 点 击 率 的 预测 6。 
呈 胆 这 些 方法 的 缺点 是 难以 处 理 稀 玻 数据 型 的 广告 或 新 广告 ， 

网 购 平 台 上 有 很 多 商家 等 撰写 的 商品 描述 文案 ， 其 中 往 忆 此 诞生 了 后 者 如 基于 层次 聚 类 分 析 、 相 似 项 、 因 子 分 解 机 

往 包 括 了 对 商品 的 外 观 、 斥 寸 、 颜 色 、 功 能 、 打 折 信息 等 多 等 方法 的 预 估 模型 全。 文献 [4] 就 从 广告 语义 的 角度 出 发 ， 
方面 多 角度 的 详细 描写 ， 体 现 了 行业 从 事 者 对 消费 者 核心 需 ” 通过 LDA 主题 模型 以 挖掘 广告 文本 中 的 主题 ， 以 广告 与 主 
求 的 思考 、 对 同行 及 自己 产品 卖点 特征 的 判断 。 产 品 的 属 怕 题 的 相关 性 基于 FM 模型 建立 了 点 击 率 预 测 模型 ， 证 实 了 文 
特征 是 多 方面 的 ， 对 消费 者 的 吸引 力也 各 有 区 别 ， 有 研究 表 ”本 语义 和 点 击 的 相关 性 。 
明 , 商品 描述 的 差异 会 影响 消费 者 的 购物 意愿 ,4。 通过 研究 推荐 系统 是 在 大 量 数据 中 筛选 出 最 符合 用 户 需求 偏好 的 
前 品 描述 及 其 商品 点 击 量 的 不 同 ， 可 以 了 解 到 消费 者 对 商品 ”结果 给 用 户 的 一 种 系统 2。 其 中 ， 协 同 推荐 算法 作为 推荐 
不 同属 性 点 的 偏好 和 需求 的 差异 。 相 比 能 够 直接 体现 用 户 对 系统 中 最 主流 的 算法 之 一 ， 主 要 通过 用 户 对 项 目的 评分 来 下 
前 品 主观 感受 的 购物 后 的 用 户 评价 ， 购 物 前 的 商品 描述 更 能 究 用 户 和 项 目 之 间 的 关联 进行 预测 卢 ]。 不 过 ， 早 期 的 推荐 系 
反映 消费 者 的 消费 冲动 ， 体 现 了 消费 者 的 核心 需求 。 对 商品 。 统 算法 主要 将 商家 视 为 一 个 商品 ， 通 过 寻找 相似 商品 或 相似 
赴 述 的 研究 ， 不 仅 可 以 为 消费 者 更 高 效 获取 商品 信息 提供 支 用 户 进 行 推荐 。 而 随 着 互联 网 的 发 展 、 社 交 网 络 的 兴起 ， 用 
持 ， 也 能 为 商家 改善 商品 性 能 、 研 发 新 产品 、 调 整 商品 卖点 。 户 和 商户 的 互动 在 不 断 增 加 ， 评 论 信息 数量 不 断 梦 升 ， 文 献 
2 [14] 通 过 分 析 用 户 的 评论 建立 评分 矩阵 ， 提 出 了 一 种 基于 高 
前 国内 外 专门 针对 电 商 领域 的 中 文 商品 描述 的 研究 比 ”斯 模型 的 优化 算法 来 研究 用 户 在 商品 不 同方 面 的 偏好 。 而 文 
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较 少 ， 与 此 研究 问题 涉及 内 容 相 近 的 研究 主要 有 计算 广告 领 。 献 [15] 从 常用 词 或 形容 词 的 角度 建立 词 袋 的 角度 构建 评分 预 
域 的 点 击 率 预测 研究 、 推 荐 系统 领域 的 评分 预测 研究 等 。 点 。” 测 模型 , 文献 [16] 则 通过 LDA 主题 模型 提取 评论 的 主题 特征 
击 率 预测 是 计算 广告 领域 中 一 个 重要 的 研究 内 容 巾 。 因 为 按 分布 作 为 自 变 量 构建 评分 预测 模型 。 这 些 方法 根据 对 用 户 评 
点 击 付费 是 互联 网 广告 的 主要 计价 模型 之 一 ， 从 而 通过 对 点 ”论文 本 的 分 析 处 理 ， 探 究 了 文本 信息 与 评分 的 关联 性 ， 从 评 
击 率 的 预测 研究 ， 可 以 提高 广告 主 的 投资 回报 率 的 同时 ， 最 。 论文 本 语义 的 角度 构建 了 评分 预测 模型 。 针 对 如 何 进一步 提 
大 化 用 户 对 展示 广告 的 满意 程度 内。 点 击 率 预 测 模型 主要 分 。 高 评分 预测 的 精度 ， 有 学 者 通过 融合 其 他 因素 或 方法 来 解决 
为 基于 历史 日 志 的 预 估 模 型 和 基于 稀 玻 数据 的 预 估 模 型 。 前 。 这 个 问题 , 并 获得 了 良好 的 效果 。 文 献 [17] 提 出 结合 融合 元 数 
者 基于 广告 的 丰富 的 历史 数据 (如 广告 的 位 置 、 内容 等 ), 然后 据 和 评分 数据 构建 特征 变量 进而 进行 对 评分 的 预测 。 文献 [18] 
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黄 卑 粹 ， 等 : 基于 商品 描述 文案 的 点 击 预测 模型 


则 基于 文本 情感 分 析 ， 对 文本 数 扩 
而 提取 文本 中 的 主要 观点 倾向 ， 将 其 作为 


预测 模型 ， 


取得 了 较 好 的 评分 预测 冯 


虽 进 行情 绪 挖 掘 与 分 析 ， 从 


变量 构建 了 评分 


履 果 。 
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1.1 特征 提取 
不 同 于 便于 提取 分 析 的 结构 化 数据 ， 商 品 描述 文案 的 结 


构 不 规则 , 不 符合 预 设 的 既定 处 理 方法 , 属于 非 结 构 化 数据 。 


的 研究 内 容 较为 


接近 ， 都 是 通过 对 非 结 构 化 文本 信息 进行 分 析 从 而 构建 预测 


在 以 上 相关 研究 中 ， 本 文 与 文献 [16,18]h 
模型 。 其 中 主要 区 别 如 下 : 
a) 预 测 的 目标 不 同 。 


预测 模型 ， 关 注 的 是 商品 的 售后 口碑 ， 
述 文案 不 同 特征 的 情感 分 析 及 LightGBM 
击 模型 ， 更 关注 商品 中 不 同属 性 对 消费 者 的 吸引 
\ 同 。 文 献 [16] 通 过 使 用 


b) 特 征 量化 角度 


对 文档 词语 进行 主题 分 类 ， 以 分 词 | 
量化 值 。 本 文 考虑 到 商品 不 同 功能 对 消费 者 的 吸引 力 不 同 ， 以 
， 进 一 步 提高 了 预测 效果 。 


文献 [16,18] 都 是 根据 并 


论 构建 评分 


评 
本 文 则 通过 对 商品 措 
的 可 解释 性 构建 ， 


| 力 影 响 。 


LDA 主题 模型 
b 现 的 概率 作为 各 特征 的 
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c) 特 征 值 的 量化 不 同 。 在 情感 分 析 中 ， 情 感 词 的 确立 及 


商品 各 特征 的 情感 倾向 作为 量化 值 
青 感 权重 
文本 中 通用 情感 词 


由 

» 通 的 情感 词 
可 
口 口 


重 的 加 权 都 是 十 分 重要 的 。 文 献 [19,20] 通 过 基于 评论 
的 积极 情感 词 、 消 极 情感 词 等 情感 词 进 
行 对 整 段 评论 的 情感 分 析 。 但 对 于 商品 描述 文案 而 言 ， 文 本 
对 商品 的 描述 词语 组 成 ， 以 功能 和 
无 法 反映 消费 者 的 情感 倾向 。 本 文通 过 
E 关 联 度 较 高 的 词 作为 情 


商品 特征 进行 分 解 ， 以 与 商品 特 条 
感 词 ， 再 通过 定义 
倾向 权重 ， 因 而 具有 普 适 性 ， 不 需要 预定 的 4 


商品 的 不 同 特征 。 


分 数据 做 推荐 ， 存 在 数据 稀 玻 性 也 
对 商品 描述 文本 的 挖掘 ， 


E 词 和 积极 情感 词 为 


个 情感 倾向 计算 公式 作为 消费 者 的 情感 
青 感 词典 ， 并 可 


。 传 统 协同 过 滤 算 法 利用 用 户 对 商品 
冷 启动 问题 1。 


的 评 
本 文 基于 


以 用 户 商品 的 特征 的 偏好 构建 预测 


此 可 以 通过 具有 相似 特有 


是 出 一 种 基 
上 用 jieba 分 词 对 商品 描述 文本 进 


于 商品 描述 文案 


特征 ， 


天 正 的 商品 的 数据 模型 来 解决 
缺乏 数据 的 问题 ， 从 而 缓解 商品 的 冷 启 动 问题 。 
基于 此 ， 本 文通 过 分 析 商 品 描述 文本 及 点 击 量 的 之 间 的 
提 的 点 击 预测 模型 。 本 文 先 
行 词语 级 分 割 , 以 及 通过 停 
用 词 去 除 无 关 词 语 ， 然 后 利用 LDA 主题 模型 提取 商品 隐 含 
村 建立 商品 的 属性 分 类 ;， 再 基于 各 词汇 的 概率 分 布 及 权 


重量 化 文本 情感 值 ， 
LightGBM 算法 模型 对 商品 的 点 


和 进行 分 类 预 涡 


将 商品 描述 文本 特征 量化 ， 最 后 通过 


I， 分 析 商 品 


各 项 特征 对 点 击 量 的 影响 ， 挖 掘 / 
动 问题 。 


j 户 的 行为 特 和 


1 ”基于 商品 描述 的 点 击 预测 模型 设计 


本 文 基于 LightGBM 和 文本 情感 分 析 的 点 


上 f 预 测 模型 主 


E， 并 缓 冷 启 


要 包括 数据 预 处 理 、 特征 提取 、 文本 情感 分 析 、LightGBM 模 
型 训练 和 结果 分 析 五 个 部 分 ， 模 型 框架 如 图 1 所 示 。 
获取 数据 
| 产 + | ee 
! ”数据 下 |! 征 P| | Ligntcew | 
| 和 | 模 il 练 。 | 结果 分析 
由 = = | 
: 中 x 分 四 |! | a | | | 
' | | | 
| < Y 1 2 | | 
| 去 除 停 用 记 | | 特征 量化 fom] 下 模型 预测 | 
| 1 1 | 
ee et | vy | | 
| 构建 语 料 词 库 | | as | | | Wt | 
1 

， 文本 情感 人 析 | | | 
! 语 村 情感 分 析 上 一 eesean | | same | 结束 | 
LE Le I 

图 1 基于 商品 描述 文案 的 点 击 预测 模型 


Fig.1 Click prediction model based on product description 


其 中 ， 在 对 原始 语句 进行 中 文 分 词 和 去 除 停 用 词 后 ， 本 文通 
过 LDA 主题 模型 进行 对 词语 的 主题 分 类 ， 从 而 获得 研究 目 
标的 主题 分 类 ， 以 其 作为 目标 的 特征 属性 ， 再 进行 下 一 步 分 
析 。LDA 主题 模型 由 Blei、 David M.、Ng,Andrew Y. 等 于 2003 
年 提出 的 ， 一 种 基于 词 袋 模型 的 分 析 文 档 主题 分 布 的 一 种 三 
层 贝 叶 斯 概率 模型 22。 它 假设 一 篇 文章 具有 开 个 主题 ， 而 每 
个 主题 又 对 应 不 同 的 词 。 因 此 文档 的 生成 如 下 : 
a) 从 狄 利克 雷 分 布 & 中 取样 生成 文档 i 的 主题 分 布 2 。 

b) 从 主题 的 多 项 式 分 布 9 中 取样 生成 文档 i 的 第 j 个 的 
主题 4。 

c) 从 狄 利克 雷 分 布 B 中 取样 生成 主题 对 应 的 词语 分 
布 人 ij 。 

d) 从 词语 的 多 项 式 分 布 双 ， 中 取样 生成 最 终 词语 ww 。 
重复 步骤 b)~d) 从 而 生成 文档 i。 
基于 此 ，LDA 主题 模型 通过 逆向 该 过 程 ， 即 给 定 文档 
及 词语 ， 然 后 通过 吉 布 斯 采样 (Gibbs sampling) 方 法 反 推 其 主 
题 的 分 布 。 从 而 获得 文档 i 的 个 主题 ， 及 组 成 主题 的 词语 
组 。 根据 文档 划分 的 K 个 主题 ,商品 的 特征 词组 可 以 记 为 
7 ， =[7a,712…o11x].。 其 中 ， wx 表示 商品 1 中 与 主题 K 的 
相关 性 词 的 组 合 ， 若 不 存在 相关 词 ， 则 wx 为 空 集 。 其 中 ， 相 
关 性 词 为 与 主题 K 相关 性 最 高 的 前 1000 个 词 。 模 型 结构 如 
图 2 所 示 。 


Rw 


图 2 LDA 模型 结构 
Fig.2 LDA topic model 
1.2 文本 情感 分 析 及 特征 量化 
文本 情感 分 析 ， 又 称 倾向 性 分 析 或 意见 挖掘 ， 是 通过 计 
算 、 分 析 、 归 纳 文本 信息 ， 从 而 获得 其 中 的 观点 、 情 绪 或 倾 
向 的 过 程 。 根 据 粒 度 细 分 的 不 同 ， 可 以 分 为 篇 章 级 、 句 子 级 
和 词语 级 三 个 层次 ， 即 对 一 篇 文章 、 一 个 句子 或 一 个 词 的 情 
感 倾 向 分 析 。 本 文 在 获得 预 处 理 后 的 文本 后 ， 把 每 个 商品 描 
述 文案 的 点 击 量 作为 其 对 应 的 情感 倾向 ， 然 后 基于 统计 方法 
进行 情感 分 析 ， 从 而 获得 词语 的 情感 倾向 。 点 击 量 分 布 
的 位 置 平均 数 靠 左 ， 峰 度 陡峭 ， 数 值 范围 跨度 大 ， 若 直接 取 
其 词语 的 数学 期 望 作为 其 情感 倾向 会 导致 高 点 击 量 的 权重 过 
大 ， 因 此 取 词 语 的 点 击 量 进行 对 数 处 理 后 的 数学 期 望 作为 词 
语 的 情感 倾向 ， 点 击 量 分 布 如 图 3 所 示 。 
最 后 ， 词 语 的 情感 倾向 计算 式 (1) 定 义 如 下 : 
@, = og C, (1) 
其 中 ， o, 表示 词语 t 的 情感 值 ，V 表示 包含 词语 t 的 商品 描 
述 文案 的 频数 ，C, 表示 第 v 个 词语 的 点 击 
根据 商品 7 的 特征 词组 w， 通 过 情感 倾向 计算 公式 则 可 
获得 商品 1 的 特征 向 量 y，ywi=[WisWos…Wixr] 。 其 中 ，wx 表 


| [un 


于 


o 
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示 商 品 二 的 第 KK 个 特征 的 特征 值 。 特 征 值 的 计算 公式 (2) 如 


开 ， 
wu = Di O) 

其 中 , 工 表示 相关 词 特征 词组 mir 中 的 词语 数 。 若 特征 词组 Mig 

中 没有 其 特征 词 ， 则 wx =0 。 特 征 量化 的 过 程 如 图 4 所 示 。 


ao0030 


3000 300000 W000 


图 3 点 击 量 分 布 图 
Fig.3 Click distribution 


数据 预 处 理 


| [词语 1， 词 语 2， 词 语 3， 词 语 4， 词 语 5..…] | 


LDA 主 题 模 型 


(a) 点 击 其 的 原始 分 布 a 了 b) log10 变 换 后 分 布 


特征 向 量 = [ 特征 值 1， 特 征 值 2，.…， 特 征 值 K ] 


LightGBM 模 型 


图 4 特征 量化 过 程 
Fig.4 Feature quantization process 


1.3 LightGBM 算法 


情感 值 量 化 


在 上 述 特征 向 量 构建 完成 后 ， 将 特征 向 量 作为 


变量 输 


入 LightGBM 模型 。LightGBM 模型 是 由 微软 于 2017 年 开源 
的 一 种 基于 决策 树 的 集成 算法 PC。 相 较 于 XGBoost、GBDT 


等 算法 在 计算 信息 增益 时 需要 扫描 所 有 林 


让 


本 以 找到 最 优 划 分 


点 ，LightGBM 模型 采用 了 Histogram、GOSS、EFB 等 算法 


方法 ， 从 而 在 面 对 大 量 数据 或 者 特征 维度 很 高 的 数据 


长 时 ， 


有 更 快 的 训练 速度 、 更 低 的 内 存 消耗 和 更 好 的 准确 率 等 优点 。 


Histogram 算法 , 通过 对 每 个 特征 进行 分 箱 (bin) 处 理 , 构 
造成 一 个 宽度 为 k 的 直方 图 ， 在 遍历 数据 时 ， 根 据 分 箱 在 直 
方 图 中 累积 统计 量 ， 根 据 亿 历 后 的 累计 统计 量 ， 遍 历 寻 找 最 


优 的 分 割 点 。 


GOSS 算法 ， 又 名 单 边 梯度 采样 算法 ， 从 减少 样 


本 的 角 


度 出 发 ， 根 据 信息 增益 的 定义 ， 排 除 大 部 分 对 信息 增益 影响 


小 的 梯度 小 的 样本 , 保留 梯度 大 的 样本 。GOSS 算法 会 先 将 进行 


分 裂 的 特征 的 所 有 取 值 按 绝 对 值 大 小 降序 排序 ， 选 取 绝 对 值 最 
大 的 a*100% 个 样本 , 再 从 剩余 数据 中 随机 选取 b*100% 的 样本 ， 
并 乘 以 一 个 常数 ， 从 而 减少 改变 原 数据 集 分 布 的 影响 。 


EFB 算法 ， 可 以 通过 将 一 些 特征 进行 融合 多 
氏 特征 数量 。LightGBM 的 EFB 算法 将 独立 特 条 


凶 定 ， 


F 绑 定 


图 着 色 问 题 ， 构 建 一 个 加 权 无 向 图 ， 将 所 有 特 生 


E 视 为 


从 而 降 
转换 为 
图 的 各 


个 定点 ， 将 不 相互 独立 的 特征 用 一 条 边 链接 ， 边 的 权 习 
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即 为 


pb 


个 相互 连接 的 特征 的 总 冲突 值 ， 选 取 冲 突 小 的 特征 融合 ， 


两 

从 而 解决 数据 稀疏 问题 。 
2 。 实验 过 程 

2.1 数据 获取 


“Product Description”P4， 以 其 中 content 数据 包 中 商品 的 
述 文案 及 各 类 用 户 的 点 击 量 信息 。 本 文 所 用 点 击 量 若 无 人 


描 


别 


本 文 实验 数据 取 自 阿里 云天 池 实 验 室 的 公开 数据 


说 明 均 为 所 有 类 型 月 


中 ,入选 以 “外 套 ” 为 关键 词 的 数据 作为 研究 对 象 


户 点 击 量 之 和 ， 且 缺失 值 视 为 0。 暴 
共 包 含 


34892 条 数据 ， 其 点 击 量 分 布 如 图 3 所 示 ， 其 点 击 量 百 分 位 


数 


如 表 1 所 示 。 
表 


1 点 击 量 百 分 位 数 


Tab. 1 Click percentile 


百 分 位 0% 25% 


50% 75% 离 群 值 线 100% 


点 者 


6 量 0.01 17.38 45.36 210.59 500.41 382745.58 


十 


根据 样本 的 点 击 量 


分 布 ， 将 点击 量 划 分 为 2 类 : 普通 点 


量 ， 高 点 击 量 。 由 于 商品 的 推荐 算法 大 多 以 用 户 的 点 击 率 


(CTR) 为 主要 优化 目标 ， 这 导致 当 某 一 类 商品 的 点 击 率 越 高 
， 就 会 得 到 更 多 的 曝光 ， 因 此 点 击 量 往往 呈现 两 极 分 化 的 
势 。 一 般 而 言 ， 曝 光度 低 的 商品 的 点 击 量 主 要 与 其 商品 的 


时 
趋 
属 


离 


显 


群 值 ， 也 称 溢出 值 ， 


计算 式 (3) 如 下 : 


Outl=Q;s +(Qs -Qs)x1.5. (3) 


通 


值 


清 


jieba 分 词 ， 将 每 个 样 


过 


模 


a 


和 


性 相关 ， 而 曝光 度 高 的 商品 的 点 击 量 则 容易 受到 各 方面 的 
响 。 由 此 ， 本 文 对 点 击 量 的 划分 以 离 群 值 的 判定 为 基础 。 


一 般 是 指数 据 中 与 其 他 观察 值 具有 明 


: 同 特征 的 那些 观察 值 。 在 此 以 四 分 位 法 划分 离 群 值 线 ， 


其 中 ， Cs ， 2x 分 别 代表 样本 中 点 击 量 从 小 到 大 排列 后 的 第 
25% 和 第 75% 的 值 。 记 普通 点 击 量 为 0, 高 点 击 量 为 1， 则 普 


点 击 量 的 样本 数 为 28667， 高 点 击 量 的 样本 数 为 6225， 比 
为 4.61， 因 此 本 样本 为 不 平衡 样本 。 
2.2 数据 处 理 及 特征 量化 


本 文 在 获取 商品 


述 文本 后 ， 数 据 处 理 流程 如 下 : 


文本 预 处 理 。 对 商品 描述 文本 进行 预 处 理 ， 对 数据 进行 


洗 ， 筛 选 出 目标 数 : 
本 的 文本 转换 为 词组 ; 


滤 掉 不 重要 的 词语 ， 


居 集 ; 然后 对 商品 描述 文本 信息 进行 
再 通过 停 用 词 表 
如 人 的 239 6 [ 阿 239 6 有 等 助词 和 符号 。 


特征 提取 。 对 预 处 理 完 的 文本 建立 词典 , 使 用 LDA 主题 


型 进行 主题 分 析 。 对 


当主 题 数 num topics= 


图 6 所 示 。 


不 同 主题 数 进行 分 别 迭 代 对 比 ,其 中 ， 
6 时 ， 主 题 比 较 清晰 ， 主 题 分 布 如 图 5 


Fig. 


图 5 主题 词 云图 
5 Theme word cloud 
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如 图 5 主题 词 云图 所 示 ,6 个 主题 可 大 致 标记 为 “风格 ” 其 中 ， 模 型 所 训练 的 样本 数据 为 不 平衡 数据 ， 正 负 样 本 


“设计 ”保暖 “换季 ”“ 穿 搭 ”"“ 身 材 ”6 个 特征 。 而 在 主题 比值 为 4.6, 因此 本 文通 过 正 负 样本 惩罚 权重 的 方法 , 对 分 类 
分 布 图 中 ， 圆 圈 表 示 不 同 的 主题 以 及 它们 之 间 的 距离 ， 类 似 ”中 不 同样 本 数量 的 类 别 分 别 赋予 权重 。 即 对 LightGBM 模型 
的 主题 看 起 来 更 近 ， 而 不 同 的 主题 更 远 ， 图 中 主题 圆 的 相对 的 参数 scale pos weight 进行 设置 ， 设 置 值 为 5。 
大 小 对 应 于 语料库 中 主题 的 相对 频率 。 如 图 6 主题 分 布 图 所 3 ”实验 结果 
示 ，6 个 主题 的 气泡 较为 分 散 ， 仅 主题 1 和 主题 3 有 少量 相 Re 
交 部 分 ， 证 明 该 主题 划分 较为 清晰 独立 ， 有 较 高 的 区 分 度 。 3.1 模型 的 评价 及 对 比 
于 本 文 使 用 的 是 不 平衡 样本 ,因此 本 文 将 选用 AUC 值 
作为 模型 之 间 的 主要 评价 指标 。AUC 值 被 定义 为 ROC 曲线 
下 与 坐标 轴 围 成 的 面积 ， 一 般 用 于 表示 模型 的 综合 性 能 ， 划 
特点 是 不 容易 受到 不 平衡 样本 的 影响 ,以 普通 点 击 量 为 负 例 ， 
l 高 点 击 量 为 正 例 。 则 当 样 本 不 平衡 时 ， 若 模型 的 预测 偏向 于 
比例 大 的 负 例 时 ， 会 导致 模型 的 准确 率 偏 大 ， 不 能 客观 反映 
模型 的 性 能 。 而 对 于 不 平衡 样本 ， 对 比例 小 正 例 样本 的 预测 
识别 也 相当 重要 ， 召 回 率 可 以 表示 样本 中 的 正 例 有 多 少 被 正 
确 预测 了 。 因此 本 文 用 准确 率 和 召回 率 指标 作为 辅助 参考 指标 。 
另外 ， 为 了 验证 模型 的 有 效 性 ， 本 文 将 添加 已 有 模型 的 
对 比 ， 及 与 XGBoost、 随 机 森林 、SVM、KNN 等 主流 分 类 算 
法 进行 对 比 。 其 中 ,“LGBM” 是 以 主题 概率 量化 特征 构建 的 
LightGBM 模型 ，XGBoost 等 算法 也 通过 相同 的 调 参 方法 (5 
折 交 叉 验 证 及 网 格 搜索 ) 进 行 调 参 ， 以 确保 对 比 的 公平 性 。 
图 6 主题 词 分 布 模型 性 能 对 比 结果 如 表 3 所 示 ， 从 AUC 值 看 ， 改 进 后 
Fig.6 Topic distance map 的 LightGBM 模型 的 AUC 值 达到 了 63.13%， 比 以 主题 相关 
特 化 。 根 据 预 处 理 后 的 分 词 构建 词典 ， 并 按 式 (1) 计 算 每 性 量化 特征 的 LightGBM 模型 的 AUC 高 了 3.43%， 比 
个 词 的 情感 倾向 ， 从 而 构建 情感 词典 。 对 每 个 商品 描述 按 主 。” XGBoost、 随 机 森林 、SVM、KNN 算法 分 别 高 了 0.39%、10.02%、 
题 进行 特征 分 类 , 根据 情感 词典 按 式 (2) 对 各 特征 值 进行 计算 。 2.48%、8.63%， 证 明了 式 (1) 能 够 反映 消费 者 的 情感 倾向 ， 且 


we 


7 


其 中 ， 频 数 少 于 10， 与 主题 关联 度 高 低 排名 超过 1000 的 词 。 LightGBM 模型 性 能 也 比 其 他 算法 更 优 。 
不 参与 特征 的 量化 ， 以 避免 小 概率 事件 的 影响 。 部 分 特征 量 表 3 模型 性 能 对 比 
化 后 的 商品 描述 如 表 2 所 示 。 Tab.3 Model performance comparison 
表 2 部 分 商品 描述 的 特征 量化 AUC 值 ”准确 率 各 回 邓 AUC 差 值 
Tab.2 Quantification of the characteristics of some product descriptions 改进 LGBM 63.13% 62.74% 63.73% 0.00% 
序号 描述 文案 特征 1 特征 2 特征 3 特征 4 特征 5 特征 6 LGBM 59.70% 58.53% 61.54% 3.43% 
1 ”理由 , 深 说， 时 里 ,…… 23.9 16.9 30.1 18.1 26.2 25.9 XGBoost 62.73% 62.63% 62.90% 0.39% 
2 ” 备 , 点 ,冬日 ，…… 10.6 9.2 19.9 15.1 9.2 5.9 随机 森林 53.11% 81.17% 8.81% 10.02% 
3 ”夹克 , 多 种 ,同型 …… ”10.8 3.6 3.7 0.0 5.3 1.8 SVM 60.65% 63.81% 55.65% 2.48% 
4 针织 ,温差 ， 备 选 ，…… 12.7 5.5 147 23.2 252 12.6 KNN 分 类 54.50% 77.99% 17.40% 8.63% 
5 轻 春 ， 外面， 羽绒 ,…… 292 368 367 245 312 12.8 从 准确 率 和 召回 率 的 角度 看 ， 随 机 森林 、SVM、KNN 算 
2.3 LightGBM 模型 训练 法 的 准确 率 明显 更 好 ， 但 召回 率 极 低 ， 证 明 这 三 种 算法 对 高 


在 训练 过 程 中 , 将 数据 集 按 7: 3 比例 分 成 训练 集 和 测试 ” 点 击 样本 的 识别 能 力 有 限 ， 模 型 效果 差 。 而 改进 后 的 模型 的 
集 ， 使 用 5 折 交 叉 验证 及 网 格 搜索 (Grid Search) 穷 举 的 方式 ， ”准确 率 和 召回 率 都 比 改进 前 的 模型 更 好 ， 再 次 证 明了 改进 的 
对 模型 进行 调 参 。 将 需要 调 参 的 参数 的 值 分 别 进行 训练 ,为 ” 有 效 性 。 
以 5 折 交 叉 验 证 的 平均 得 分 作为 模型 最 优 参数 ， 然 后 进行 模型 的 学 习 曲 线 如 图 8 所 示 ， 随 着 样本 数 的 增加 ， 训 练 
下 步 的 调 参 直到 调 参 完成 ， 过 程 如 图 7 所 示 。 实 线 为 模型 在 。 ” 集 模型 的 得 分 在 不 断 下 降 ， 而 测试 集 的 得 分 在 不 断 上 升 ， 两 
各 个 参数 值 下 的 5 折 交 叉 验 证 平均 得 分 ， 色 块 上 端 和 下 端 分 。 者 得 分 开始 接近 且 逐 渐 趋 于 平稳 。 这 表明 随 着 样本 数 的 继续 


Co 


、 = [a] i 对 得 性 台 E 
别 为 得 分 的 最 高 分 和 最 低 分 。 增加 ， 模 型 能 获得 更 好 的 性 能 。 
GridSearchCV 训 | 练 过 程 图 Learning Curve 
0. 700 
一 上 Testing 1.0] 一 - Training 
0. 675 ] 一 Testing 
a 
0,650 | 1 
0.625] RN 
© 0.61 
号 0. 600 -| 
0.575 -| 0.4j 
0.550 | 
0.2] 
0. 525 -| 
0, 500 T T T T T 0.0 7 r r op y 
0 2 4 6 8 5000 10000 15000 20000 25000 30000 
参数 Sample Nums 
图 7 调 参 示例 图 8 ”模型 学 习 曲线 


Fig.7 Parameter adjustment Fig.8 Learning curve 
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此 企 、 


的 “ 保 瞪 “风格 ” 方 画 
可 以 通过 加 大 或 


黄 锻 炫 ， 等 : 基于 商品 


LightGBM 算法 可 以 通过 各 个 特征 提供 的 信息 增益 来 评 
特征 的 重要 性 


， 而 特征 的 重要 性 可 以 作为 商品 各 个 特征 对 


名 


上 
用 户 的 整体 吸引 程度 。 特 征 重要 性 如 恬 
套 
天 


点 宣传 商品 的 这 


9 所 示 ， 可 以 认为 外 
i 的 特征 更 能 直接 影响 用 户 的 点 击 ， 


而 使 生 7 


的 商品 获得 更 高 


不 同 特 4 
行 预测 ， 


FE 的 情感 词 


试 错 成 本 ,而 


3.2 ”数据 污染 及 新 文本 效果 分 析 


的 点 击 。 男 外 ， 企 
测试 商品 功能 的 组 合 ， 并 通过 本 模型 进 
发 掘 消费 者 需求 ， 调 整 商品 未 来 的 下 
发 更 可 能 受到 消费 者 青睐 的 产品 。 


方向 特征 ， 
此 可 以 根据 商品 


从 


Feature importance 


9 ”特征 


重要 性 图 


Fig.9 Feature importance 


发 方向 ， 降 低 


本 文中 ， 模 型 的 情感 词典 是 基于 所 有 样本 构建 的 ， 存 在 
数据 污染 的 可 能 ， 因 此 本 节 通 过 分 层 抽样 的 标准 5 折 交 又 方 


法 划分 所 有 林 


数据 构建 情感 词典 ， 测 试 集 不 参 
新 样本 或 新 数据 对 模型 性 能 的 影 


如 表 4 所 


右 ， 平 均 AUC 值 为 62.17%， 十 分 接近 原 数 
数 ， 表 明 模 型 在 情感 词典 改变 后 依然 
数据 污染 的 影响 很 低 或 没有 影响 ， 对 新 村 
AUC 值 的 差距 很 可 能 是 由 于 
减少 所 导致 的 ， 根 据 大 数 定律 ， 当 


本 ， 训 练 集 和 验证 集 比 例 为 8: 2， 仅 以 训练 集 
与 情感 词典 的 构建 ， 从 而 验证 
向 及 模型 与 情感 词典 的 关系 。 

f 示 ，5 个 数据 集 的 AUC 值 均 稳定 在 61-63% 左 
居 集 的 AUC 分 
良好 的 性 
EF 本 也 保持 着 相似 的 


E 能 ， 证 明了 


描述 文案 的 点 击 预 测 模型 
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预测 能 力 。 而 平均 值 与 原 模型 

构建 情感 词典 的 样本 数量 

样本 足够 大 时 ， 该 差距 无 限 接近 于 零 。 
表 4 新 样本 下 的 模型 性 能 


Tab.4 Model performance with new samples 


现实 情况 大 致 相符 。 
|_ 衣 最 (0.69) | 零食 (0) 
0 
原 召 回 率 : 49.76% 原 召 回 率 : 51.04% 
EE 
T 恤 (0.66) 外 套 衬衫 (0.9) 
AUC: 53.49% 同类 |Auc: 63.13% 同类 |Auc: 54.29% 
原 AUC: 52.27% | 站 召回 率 : 63.73% | | 原 AUC: 52.13% 
原 召回 率 : 26.60% 原 召 回 率 : 31.54% 
子 类 
羽绒 服 (1.91) 棉衣 (250) 夹克 (3.13) 
AUC: 57.40% AUC: 58.85% AUC: 57.66% 
原 AUC: 52.50% 原 AUC: 54.37% 原 AUC: 55.41% 
原 召回 率 : 78.06% 原 召 回 率 : 79.65% 原 召回 率 : 47.36% 
10 商品 关系 及 模型 性 能 
Fig. 10 ”Commodity relationships and model performance 
表 5 按 PPMI 排名 的 商品 模型 性 能 
Tab.5 Commodity model performance ranked by PPMI 
AUC ” 原 模型 AUC 原 模型 召回 率 ”PPMI 
外 套 63.13% 63.13% 63.73% / 
夹克 57.66% 55.41% 47.36% 3.13 
棉衣 58.85% 54.37% 79.65% 2.59 
羽绒服 57.40% 52.50% 78.06% 1.91 
衬衫 54.29% 52.13% 31.54% 0.90 
衣服 61.32% 55.66% 49.76% 0.69 
TI! 53.49% 52.27% 26.60% 0.66 
零食 51.26% 49.61% 51.04% 0.00 
对 于 近邻 商品 : 由 图 10 可 知 , 模型 对 近邻 商品 的 点 击 量 
依然 保留 着 一 定 的 识别 能 力 。 其 中 ， 直 系 商 品 (衣服 、 夹 克 、 
棉衣 等 ) 的 AUC 值 及 原 AUC 值 都 比 同类 商品 (T 恤 、 衬 衫 ) 更 
高 ， 表 明 用 户 对 直系 商品 的 特征 有 着 更 相似 的 偏好 。 从 AUC 
值 看 ， 直 系 商 品 的 模型 性 能 有 着 明显 更 高 的 得 分 ， 而 同类 商 
品 则 较 低 ， 且 接近 无 关 商品 的 得 分 ， 这 可 能 是 由 于 同类 商品 
中 特征 的 着 重点 不 同 所 导致 的 。 与 现实 中 ， 对 外 套 、 棉 衣 等 
商品 的 关注 点 与 了 恤 等 明显 不 同 这 一 情况 大 致 符合 ,从 PPMI 


数据 集 1 2 3 4 5 平均 ” 原 数据 看 ， 除 “衣服 ”外 ， 与 原 商 品 之 间 的 关联 度 (PPMI) 越 高 ， 则 
AUC 61.68% 62.75% 62.32% 62.55% 61.56% 62.17% 63.13% 模型 在 该 商品 的 适应 性 就 越 强 。 基 于 这 个 特性 ， 对 于 缺乏 历 
准确 率 60.60% 60.50% 61.18% 60.52% 58.94% 60.35% 62.74% 史 样 本 的 新 商品 ， 可 以 通过 筛选 与 新 商品 的 直系 商品 或 关联 
召回 率 63.37% 66.27% 64.10% 65.70% 65.62% 65.01% 63.73% 度 高 的 商品 的 样本 进行 建 模 ， 从 而 缓解 物品 的 冷 启动 问题 。 
3.3” 冷 启动 问题 分 析 企业 也 能 通过 对 比 近 邻 商 品 特征 的 情感 词典 ， 挖 掘 具备 其 他 
本 节 通 过 对 目标 商品 的 近邻 商品 的 模型 适应 效果 分 析 ， 商品 特征 的 新 产品 的 可 能 。 
探讨 冷 启 动 问题 对 模型 的 影响 。 有 具体 做 法 是 用 相同 方法 筛选 4 ”结束 语 
对 比 商 品 的 商品 描述 文案 样本 ， 并 观察 其 在 目标 商品 模型 中 有 
的 性 能 表现 。 商 品 关 系 及 模型 性 能 如 图 10 所 示 。 本 文通 过 挖掘 商品 描述 文案 中 商品 属性 ， 构 建 一 个 基于 
其 中 AUC 是 以 “外 套 ” 建 立 的 情感 词典 ， 使 用 各 商品 各 自 的 “LightGBM 的 点 击 预测 模型 。 该 模型 可 以 对 商品 非 结 构 化 文 
样本 训练 的 预测 模型 的 性 能 得 分 ， 反 映 的 是 “外 套 ” 的 商品 本 信息 进行 量化 ， 获 得 用 户 对 商品 各 特征 的 情感 倾向 ， 同 时 
特征 在 其 他 商品 中 的 有 效 性 ， 原 AUC 及 原 召 回 率 则 是 直接 利用 LightGBM 可 解释 性 ， 根 据 特 征 重 要 性 排序 识别 出 对 商 
使 用 原 商 品 模 型 对 其 他 商品 样本 进行 预测 的 模型 性 能 ， 反 映 品 点 击 影响 较 大 的 主要 因素 ， 从 而 可 以 为 商品 提供 宣传 和 研 
了 原 商品 模型 对 其 他 商品 样本 的 预测 能 力 ， 为 了 客观 阐述 商 发 上 的 决策 支持 。 针 对 新 商品 的 冷 启动 问题 ， 模 型 利用 不 同 
品 之 间 的 关系 ， 除 了 根据 商品 分 类 划分 商品 外 ， 还 通过 信息 商品 特征 的 相似 性 ， 使 得 模型 能 在 新 商品 在 缺少 历史 数据 的 
论 中 正点 互信 息 公 式 (PPMD) 计 算 总 样本 库 中 ， 目 标 商品 和 其 情况 下 进行 点 击 预测 。 实 验 结果 证 明 ， 模 型 较 以 主题 概率 量 
他 商品 关键 词 的 关系 ( 即 图 10 中 各 商品 括号 内 数值 )。 其 中 化 特征 构建 的 模型 具有 更 好 的 预测 效果 。 同 时 ， 模 型 对 新 商 
PPMI 越 大 ， 表 明 商 品 之 间 关 联 性 越 高 。 按 PMMI 排名 的 模 品 的 预测 性 能 与 商品 的 关联 度 呈 正 相 关 。 本 模型 从 对 商品 描 
型 性 能 如 表 5 所 示 。 述 属性 对 点 击 量 的 影响 分 析 问 题 ， 用 LDA 主题 模型 对 商品 
对 于 无 关 商品 : 由 图 10 和 表 $ 可 知 ,“ 零 食 ” 与 “外 套 ” 特征 的 划分 带 定 主观 性 ， 也 没有 考虑 到 商品 图 片 、 价 格 
两 种 商品 可 视 作 无 关 商品 .其 中 “零食 ”的 AUC 值 为 51.26%， ”等 其 他 信息 对 商品 点 击 的 影响 ， 模 型 性 能 不 够 高 。 未 来 工作 
表明 “零食 ” 仅 具 备 “ 外 套 ” 很 少 的 商品 特征 ; 原 AUC 值 为 可 以 通过 使 用 更 合适 的 主题 模型 及 结合 图 像 识别 等 技术 进 一 
49.61%， 表 明 原 模型 对 “零食 ”商品 几乎 没有 识别 能 力 ， 与 步 挖掘 商品 特征 ， 来 进一步 提高 模型 的 预测 性 能 或 可 靠 性 。 
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